Vsak začetek je težak: avtomatsko učenje prevajanja slovenščine v angleščino

نویسندگان

Jernej Vičič

Tomaž Erjavec

چکیده

Povzetek Prispevek predstavlja poizkus avtomatskega prevajanja iz slovenskega jezika v angleški na osnovi statističnega strojnega prevajanja. Sistem temelji na zbirki orodij EGYPT, ki je namenjena obdelavi dvojezičnih vzporednih korpusov za strojno prevajanje. Osnova za učenje prevajanja je bil stavčno poravnani korpus IJS-ELAN, ki vsebuje milijon besed, prevodov iz slovenščine v angleščino in obratno; besede obeh jezikov so tudi oblikoslovno označene. V članku predstavimo statistične osnove sistema, zbirko orodij EGYPT in našo implementacijo prevajalnika. Sistem smo učili najprej neposredno na besedah (besednih oblikah) v korpusu, nato pa smo jih, za slovenski jezik, nadomestili z besednimi lemami, s čimer smo se želeli izogniti problemu redkih podatkov. Izvedeno je bilo osnovno vrednotenje sistema, tako za model z besednimi oblikami, kot za tistega z lemami. Vrednotenje smo je izvedli z dvema metodama: SA/TA, ki je različica urejevalne razdalje (edit distance), in omogoča avtomatsko vrednotenje; SSER (subjective sentence error rate), kjer prevode našega sistema ocenjujejo ljudje z razvrščanjem v kategorije. Prispevek zaključimo z načrti za nadaljnje delo.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Automatic Construction of Wordnets by Using

WordNet is one of the most valuable lexical resources in the Natural Language Processing community. Unfortunately, the benefits of building a WordNet for the Macedonian language have never been recognized. Due to the time and labor intensive process of manual building of such a lexical resource, we were inspired to develop a method for its automated construction. In this paper, we present a new...

متن کامل

Pragmatically annotated corpora in speech-to-speech translation

The aim of this paper is to discuss and specify some pragmatic language categories that could be used as attributes in spontaneous speech corpora, especially the corpora used for developing speech-to-speech translation systems components. When developing the speech-to-speech translation, researchers have to deal with spontaneous (conversational) speech phenomena like hesitations, turntaking beh...

متن کامل

Testing data dependency for microprocessors with a short SIMD instruction set

Povzetek. V tem članku predstavimo algoritem za ugotavljanje obstoja podatkovne odvisnosti pri vektorizaciji zank za CPE z naborom ukazov SIMD. Znano je, da lahko zaporedje ukazov, ki izvedejo enako operacijo nad sosednjimi operandi v pomnilniku, nadomestimo z enim samim ukazom SIMD, če med temi ukazi ni prave podatkovne odvisnosti, tj. odvisnosti tipa RAW. Vendar se izkaže, da lahko pravo poda...

متن کامل

Optimalno vodenje kompenzatorjev jalove moči v industrijskih omrežjih – koncept virtualnega kompenzatorja

Povzetek. V sodobnih industrijskih procesih delež nelinearnih bremen, ki so vir tokovnega harmonskega popačenja, nenehno raste. Hkrati se povečuje tudi število kompenzatorjev jalove moči. Kompenzatorji sami sicer niso vir harmonskega popačenja, lahko pa povzročijo ojačenje harmonikov z ustvarjanjem resonančnih razmer, posledica tega pa je nepravilno delovanje naprav ali celo njihov izpad iz obr...

متن کامل

A Software Tool for Semi-Automatic Part-of-Speech Tagging and Sentence Accentuation in Serbian Language

This paper presents a software tool for semi-automatic part-of-speech tagging, annotation of morphological categories and accentuation of texts in Serbian language. The software tool described in this paper is used for very efficient development of tagged text corpora in Serbian language since the accuracy of automatic POS tag and morphological category assignment is 87,2%. This result was obta...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2002

Vsak začetek je težak: avtomatsko učenje prevajanja slovenščine v angleščino

نویسندگان

چکیده

منابع مشابه

Automatic Construction of Wordnets by Using

Pragmatically annotated corpora in speech-to-speech translation

Testing data dependency for microprocessors with a short SIMD instruction set

Optimalno vodenje kompenzatorjev jalove moči v industrijskih omrežjih – koncept virtualnega kompenzatorja

A Software Tool for Semi-Automatic Part-of-Speech Tagging and Sentence Accentuation in Serbian Language

عنوان ژورنال:

اشتراک گذاری